Este trabalho foi feito a partir do tidytuesday do ano de 2021, semana 31. Todo código utilizado nessa análise e o projeto completo pode ser encontrados no repositório github.
A análise deste trabalho será baseada nos passos descritos no curso “Certificado Profissional de Análise de dados” do Google no Corsera, quais sejam:
Este estudo tem como objetivo investigar a participação feminina olímpica do Brasil no período de 1948 à 2016 e como essa participação difere da média olímpica e de países pares.
Este trabalho foi feito com base nos dados históricos olímpicos modernos (fonte:kaggle), tendo como objetivo realizar uma comparação do brasil com a média olimpica e os maiores medalistas americanos (Estados unidos e Canadá) em relação à participação feminina de 1948 até 2016. Canadá e Estados Unidos foram escolhidos para comparação por estarem no continente americano, possuírem tamanhos similares ao do Brasil, além do fato de terem participado de todas as edições olímpicas no período estudado.
O banco de dados deste projeto é composto por uma planilha confeccionada pelo usário rgriffin do kagle apartir do site sports-reference. Os dados são compostos por duas planilhas chamadas “olympics” (com 271.116 linhas e 15 colunas) e “regions” (com 230 linhas e 3 colunas). A segiur o esquema de ambas as tabelas utilizadas nesse trabalho:
glimpse(tuesdata$olympics)
## Rows: 271,116
## Columns: 15
## $ id <dbl> 1, 2, 3, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, …
## $ name <chr> "A Dijiang", "A Lamusi", "Gunnar Nielsen Aaby", "Edgar Lindenau…
## $ sex <chr> "M", "M", "M", "M", "F", "F", "F", "F", "F", "F", "M", "M", "M"…
## $ age <dbl> 24, 23, 24, 34, 21, 21, 25, 25, 27, 27, 31, 31, 31, 31, 33, 33,…
## $ height <dbl> 180, 170, NA, NA, 185, 185, 185, 185, 185, 185, 188, 188, 188, …
## $ weight <dbl> 80, 60, NA, NA, 82, 82, 82, 82, 82, 82, 75, 75, 75, 75, 75, 75,…
## $ team <chr> "China", "China", "Denmark", "Denmark/Sweden", "Netherlands", "…
## $ noc <chr> "CHN", "CHN", "DEN", "DEN", "NED", "NED", "NED", "NED", "NED", …
## $ games <chr> "1992 Summer", "2012 Summer", "1920 Summer", "1900 Summer", "19…
## $ year <dbl> 1992, 2012, 1920, 1900, 1988, 1988, 1992, 1992, 1994, 1994, 199…
## $ season <chr> "Summer", "Summer", "Summer", "Summer", "Winter", "Winter", "Wi…
## $ city <chr> "Barcelona", "London", "Antwerpen", "Paris", "Calgary", "Calgar…
## $ sport <chr> "Basketball", "Judo", "Football", "Tug-Of-War", "Speed Skating"…
## $ event <chr> "Basketball Men's Basketball", "Judo Men's Extra-Lightweight", …
## $ medal <chr> NA, NA, NA, "Gold", NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
glimpse(tuesdata$regions)
## Rows: 230
## Columns: 3
## $ NOC <chr> "AFG", "AHO", "ALB", "ALG", "AND", "ANG", "ANT", "ANZ", "ARG", …
## $ region <chr> "Afghanistan", "Curacao", "Albania", "Algeria", "Andorra", "Ang…
## $ notes <chr> NA, "Netherlands Antilles", NA, NA, NA, NA, "Antigua and Barbud…
Nesta fase fora investigado os dados a procura de erros e inconsistência que atrapalhem a análise. Aqui Foram identificados valores ausêntes na coluna “medal”, bem como inconsistência de nominação na coluna “team”. Como solução fora feita uma união das tabelas “olympics” e “regions” para que pudéssemos utilizar a coluna “region” da tabela “regions” em substituição da coluna “team” da tabela “olympics”. O código utilizado nessa fase pode ser observado a seguir:
#Mesclando as bases para dar utilidade a coluna "region" da tabela "regions"
olympics <- left_join(tuesdata$regions, tuesdata$olympics, by = c("NOC" = "noc"))
#limpando a base de algumas colunas que não serao utilizadas,
#bem como transformando outras em fatores para melhor manipulação
olympics <- olympics |>
mutate(
medal = replace_na(medal, "None"),
sex = factor(sex, levels = c("M", "F")),
medal = ordered(medal, levels = c("None", "Bronze", "Silver", "Gold")),
season = factor(season, levels = c("Summer", "Winter")),
year = factor(year, ordered = TRUE),
NOC = factor(NOC)
) |>
select(-c(id, notes, age, height, weight, team))
Neste fase foi realizada a comparação entre a média olímpica, Canadá, EUA e Brasil levando em consieração as seguintes métricas:
Neste fase há muita sobreposição entre os países e a média olimpica, com esportes como Boxe, Polo aquático, canoagem e tiro olímpico com baixa representatividade feminina, enquanto esportes como Handebol, Volêi de praia, Vôlei, Ginastica olímpica e Triatlo com uma alta representatividade feminina. Neste quesito o Brasil segue, em regra, a média olímpica e de seus pares em relação a participação feminina olímpica por esporte.
Nesta métrica pode-se observar uma relação direta entre a participação feminina e a quantidade de medalhas proporcionais por gênero detre todos os países e a média olímpica. Quanto maior a participação feminina, maior a quantidade de medalhas. Contudo, no caso brasileiro essa relação não abrange todo o escopo olpimpico, pode-se observar que em esportes como ginastica olímpica e natação, essa relação entre representatividade e quantidae de medalhas não se faz verdadeira. Isto pode se dar devido a diversos fatores que vão desde a tradição de cada esporte no país, até diferenças salariais, de patrocinio e condições de trabalho em gerais, que fogem ao escopo deste trabalho e necessitam de dados adicionais.
Nesta métrica também há uma relação direta com o tempo e a participação feminina nas olímpiadas. Com o passar do tempo a quandidade de mulheres participando nas olpimpiadas cresceu, indo de média de 20% no ano de 1948 até mais de 45% no ano de 2016. No caso especifico do Brasil ocorreram algumas diferenças pontuais, como por exemplo a participação feminina diminuiu consideravelmente dos anos de 1948 até o ano de 1964, tendo conseguido votar ao patamar de 1948 somente no ano de 1988, esta diminuição pode ter se dado por fatores internos como a Republica populista (1945 à 1964) e a ditadura militar (1964 à 1985), contudo para realizar tal afirmação são necessários dados adionais. Ocorreu também, no caso brasileiro uma diminuição, não tão expressiva quanto a anterior, da participação feminina dos anos de 2008 à 2016, que podem também necessita de dados adicionais para ser analisada.
Neste quesito, em geral há uma relação direta com o tempo e a quantidade de medalhas femininas, a média olímpica vai de mais ou menos 20% no ano de 1948 à mais de 45% no ano de 2016. Canadá e estados Unidos seguem esta tendencia mundial, contudo o caso brasileiro é diferente. No brasil do ano de 1948 à 1992 o amento da participação feminina não se converteu em medalhas, tendo a primeira medalha feminina em olimpiadas se dado no de 1996, sendo que a partir desse ano a proporção de mulheres participantes e de medalhas não tem uma relação clara, com excessão dos anos de 2008 à 2016 onde houve uma diminuição do número de medalhas femininas, junto com a diminuição da participação feminina.
Neste trabalho foi feita a analise da participação feminina durante no periodo de 1948 à 2016, observando tando a média mundial, quando países como Canadá, EUA e Brasil. Pôde-se observar, na média, uma relação positiva do tempo com a participação feminina, bem como no número de medalhas proporcionais. Contudo no caso brasileiro houveram algumas diferenças. No periodo de 1948 à 1984 houve, em geral uma diminuição da participação feminina no Brasil, tendo retornado aos patamares anteriores somente no ano de 1988. Da mesma maneira o aumento da participação feminina ocorrido do ano de 1948 à 2016 no Brasil não foi convertido em número de medalhas proporcionais, tendo o Brasil ganho sua primeira medalha somente no ano de 1996. Estas diferenças podem se dar por fatores internos (República Populista e Ditadura Militar), além de fatores de desigualdade de gênero como falta de patrocinio, baixos salarios e falta de incetivo à delegação feminina. Contudo, para que possamos realizar tais afirmações se faz necessário mais dados para ancorar tais suposições aos fatos, o que foge ao escopo deste trabalho.